Visualizing the Impact of Feature Attribution Baselines

Esta página se basa en el artículo Visualizing the impact of features attribution baselines (Visualizando el impacto de las características de líneas de base) disponible en el siguiente enlace.

Introducción.

El algoritmo de gradientes integrados es un método que calcula cuál de las características es importante para una red neuronal cuando se hace una predicción. El método ha sido usado para interpretar redes entrenadas con una variedad de datos amplia, que incluye retinografía y electrocardiogramas.
En cada sección se colocan enlaces a videos para que al lector le resulte más fácil los temas abordados por el artículo.
¿Qué es una red neuronal?

Clasificación de imagenes.

A lo largo de todo el artículo los ejemplos tomados se centran unicamente en el reconocimiento de imagenes, lo anterior se debe a que resulta más fácil observar las cualidades del algoritmo de gradientes integrados y compararlo con nuestra intuición acerca de cuáles son los pixeles más importantes de una imagen para identificar su contenido. La red neuronal usada en los ejemplos es la Inception V4, una red neuronal convolucional diseñada para clasificar una imagen dentro de 1000 categorías disponibles; el conjunto de datos en el que se basó el diseño de la red en el imageNet dataset.
ImageNet es una base de datos organizada acorde con una jerarquia WordNet, en la que cada nodo de la jerarquía es representada por miles de imagenes.
La selección de la arquitectura de la red, se hizo al considerar que Inception V4 tiene una precisión superior al 80% al predecir los datos del conjunto de imagenes de validación.
Resulta sorprendente como es que la red neuronal averigua cuál es el objeto de la imagen. Existen muchos métodos para interpretar modelos de machine learning, incluyendo métodos para visualizar y entender cómo es que las redes representan las entradas internamente, por ejemplo, métodos de atribución de propiedades que asignan un valor a cada una de las propiedades para cada una de las entradas, o métodos de prominencia que identifican las regiones de la imagen que determinan la decisión de la red. Ambos métodos no son mutuamente excluyentes: un método de atribución puede ser visualizado como un metodo de prominencia y un metódo de prominencia puede valorar la imporancia de cada pixel individual. Cabe aclarar que en el artículo se encfoca en el método de asignación de propiedades de gradientes integrados.
Formalmente, dada una entrada objetivo x y una función f, los métodos de atribución de propiedades asignan una puntuación a la i-esima propiedad, la cual representa la cantidad que suma o resta la propiedad a la salida de la red. Un valor positivo o negativo con una magnitud grande, indica que la propedad i incrementa o decrementa en un alto grado la salida respectivamente. Entonces una puntuación cercana a cero indica que esa propiedad no tiene una influencia significativa en .
A continuación se muestran 4 imagenes pertenecientes a la base de datos ImageNet. En cada caso a la derecha se coloca una gráfica que indica cuáles son los pixeles más importantes para la predicción de la red usando gradientes integrados. Los pixeles en blanco indican los pixeles más importantes. A la derecha se grafican las 5 clases con las puntuaciones más altas.
imagen_1.jpg
imagen_2.jpg

imagen_3.jpg

imagen_4.jpg

Saliency Maps - SqueezeNet - YouTube
Vertex AI es la plataforma unificada de aprendizaje automático de Googlee cloud. En su documentación acerca de machine learning se encuentra el siguiente ejemplo que ayuda a entender mejor los métodos de atribución de propiedades.
Una red neuronal profunda está entrenada para predecir la duración de un viaje en bicicleta, según los datos del clima y los datos compartidos de viajes anteriores. Si solo solicitas predicciones de este modelo, obtendrás predicciones de la duración de los viajes en bicicleta en minutos. Si solicitas explicaciones, obtendrás la duración prevista del viaje en bicicleta, y una puntuación de atribución relativa a cada atributo de la solicitud de explicaciones. Las puntuaciones de atribución muestran cuánto influyó el atributo en el cambio del valor de la predicción, en relación con el valor del modelo de referencia que especificaste. Elige un modelo de referencia que sea relevante para el modelo (en este caso, la duración media del viaje en bicicleta). Puedes trazar la puntuación de atribución de atributos para ver cuáles son los atributos que más contribuyeron a la predicción resultante.
imagen_ejemplo.png

Una mejor comprensión gradientes integrados.

Para entender mejor el comportamiento del algoritmo observado en los 4 casos anteriores, es necesario precisar cómo es que se calcularon las atribuciones para cada propiedad. Formalmente, gradientes integrados define la puntuación para la propiedad i-ésima con la siguiente fórmula:
Donde:
El termino se denomina diferencia de linea de base.
La integral se hace desde la línea de base hasta la entrada.
El termino se denomina gradiente local acumulado. Por lo tanto la fórmula que la puntuación se obtiene al acumular los gradientes interpolando la imagen entre el valor de linea base y la entrada actual. Ahora bien, ¿cómo es que esto tiene sentido?
Primero consideremos que el gradiente de una función representa la dirección de máximo crecimiento. En este caso el gradiente indica cuál de los pixeles tiene la pendiente más inclinada con respecto a la salida. Por esta razón, el gradiente de la red a una entrada, fue uno de los primeros métodos de prominencia utilizados.
Desafortunadamente, existen muchos problemas cuando se usa el gradiente para interpretar redes neuronales profundas (deep neuronal networks). Uno en específico se denomina saturación; se basa en que el gradiente de las propiedades puede tener magnitudes pequeñas en una muestra aunque el resultado de una red depende significativamente de esas propiedades. Esto puede pasar si la salida de la red se aplana después de que esas propiedades alcanzan cierta magnitud. Intuitivamente, desplazarse en los pixeles de una región pequeña de una imagen no cambia lo que la red identifica de la imagen. Para entender mejor la saturación en redes neuronales se muestran las siguientes 4 gráficas hechas a partir de las imagenes consideradas en la sección anterior. En cada caso se grafica la salidad de la red en todas las imagenes entre la línea base y la imagen actual. Las figuras indican que la salida de la red para la clase correcta incrementa inicialmente, pero rapidamente cambia el ritmo al que se incrementa, lo cual se refleja en un aplanamiento de la gráfica. Después de valores de alfa mayores a 1, la salida para esa propiedad se incrementa muy poco.
imagen_5.jpg
imagen_6.jpg
imagen_7.jpg
imagen_8.jpg
Es interesante considerar la forma en que la red parte de predecir nada en la linea de base () y llega a estar completamnete saturada hacia la categoría correcta de la clase en x. En este punto surge la pregunta, ¿cuáles pixeles, cuando se sigue esta ruta, incrementan de forma significativa la salida de la red hacia la categoría correcta? Esto es lo que la fórmula de gradientes integrados indica.
Debido a que los límites de integración van desde la línea base hasta la entrada, la fórmula de gradientes integrados evita problemas cuando gradientes locales se saturan. La ecuacion original se puede descomponer en tres partes:
1.La interpolación de la imagen entre la línea base y la imagen objetivo.
2. Los gradientes de la interpolación de la imagen.
3. El valor acumulado de los gradientes en el punto α.
A continuación se muestran 4 imagenes que muestran estos tres elementos y la suma del gradiente acumulado conforme se incrementa alfa, en este caso solo se muestra lo que sucede con una imagen, no obstante es clara la forma en que la suma del gradiente acumulado alcanza valores máximos para valores muy pequeños de alfa. Cuando alfa es 1, la suma del gradiente acumulado es prácticamente 0. Otro aspecto destacable es que la imagen interpolada comienza siendo un cuadrado completamente negro y conforme alfa iguala a 1, se obtiene la imagen original.
imagen_9.jpg
imagen_10.jpg
imagen_11.jpg
imagne_12.jpg
Con la intención de comprender mejor las líneas base, antes es necesario hacer un paréntesis breve para hablar de la teoría de juegos.

Teoria de juegos y datos faltantes

Los gradientes integrados se inspiran en el trabajo de la teoría de juegos cooperativos, específicamente el valor de Aumann-Shapley.
En teoría de juegos cooperativos, un juego no atómico es una construcción utilizada para modelar sistemas económicos a gran escala donde hay suficientes participantes que es deseable modelarlos continuamente. Los valores de Aumann-Shapley proporcionan una forma teóricamente fundamentada de determinar cuánto contribuyen al sistema los diferentes grupos de participantes.
Estamos interesados en cómo cada característica afecta la predicción de un punto de datos. En un modelo lineal es fácil calcular los efectos individuales. Así es como se ve una predicción de modelo lineal para una instancia de datos:
donde x es la instancia para la que queremos calcular las contribuciones. Cada es un valor de característica, con j = 1, …, p. es el peso correspondiente al atributo j.
La contribución de la función j-ésima en la predicción es:
donde es la estimación del efecto medio para la característica j. La contribución es la diferencia entre el efecto de la característica menos el efecto promedio. Esto representa cuanto contribuyo cada caracteristica a la prediccion. Si sumamos todas las contribuciones de caracteristicas para una instancia, obtenemos el siguiente resultado:
Este es el valor predicho para el punto de datos x menos el valor promedio predicho. Donde las contribuciones de funciones pueden ser negativas.
Para poder hacer esto en cualquier tipo de modelo nos ayudamos de la teoria de juegos cooperativos. El valor de Shapley se define mediante una función de valor val de jugadores en S.
El valor de Shapley de un valor de característica es su contribución al pago, ponderado y sumado sobre todas las combinaciones posibles de valor de característica
donde S es un subconjunto de las características utilizadas en el modelo, x es el vector de valores de características de la instancia a explicar y p el número de características. es la predicción para los valores de características en el conjunto S que están marginados sobre las características que no están incluidas en el conjunto S:
Nota: El valor de la característica es el valor numérico o categórico de una característica e instancia; el valor de Shapley es la contribución de la característica a la predicción; la función de valor es la función de pago para coaliciones de jugadores (valores de características).
El valor de Shapley es el único método de atribución que satisface las propiedades Eficiencia, Simetría, Dummies y Aditividad, que juntas pueden considerarse una definición de pago justo
En la teoría de juegos, una noción de falta está bien definida. Los juegos se definen en coaliciones - conjuntos de participantes - y para cualquier coalición específica, un participante del sistema puede estar dentro o fuera de esa coalición. El hecho de que los juegos puedan ser evaluados en coaliciones es la base del valor de Aumann-Shapley. Intuitivamente, calcula cuánto valor agrega un grupo de participantes al juego calculando cuánto aumentaría el valor del juego si agregamos más de ese grupo a una coalición determinada.
Los datos que faltan pueden aparecer en diferentes contextos. En las encuestas estadísticas, a menudo algunos encuestados no responden a todas las preguntas. En quimiometría, las respuestas pueden estar fuera del rango del instrumento, algunas mediciones pueden ser demasiado costosas de llevar a cabo para todos los objetos y los datos pueden faltar debido a un mal funcionamiento de los instrumentos. En la quimiometría de proceso, los datos faltantes pueden aparecer por varias razones: falla del sensor o falla en la comunicación entre la instrumentación y el sistema de control digital (DCS), sensores tomados fuera de línea para el mantenimiento de rutina, muestras manuales no recolectadas en los momentos requeridos, datos descartados debido a errores de medición graves y sensores con diferentes períodos de muestreo. En el monitoreo y control de procesos por lotes en línea, en cada momento se desconoce el comportamiento futuro del proceso, y luego se puede tratar como valores faltantes. Las matrices de datos incompletas pueden surgir de diseños experimentales, como resultado de un muestreo insuficiente, altos costos y errores en las mediciones o durante la adquisición de datos. En los estudios de expresión génica, los valores faltantes se observan con bastante frecuencia al analizar los datos de microarrays. y una de las cuestiones se refiere a los mecanismos que conducen a la falta de datos y, en particular, a la cuestión de si el hecho de que falten variables está relacionado con los valores subyacentes de las variables en el conjunto de datos. Los mecanismos de datos faltantes son cruciales porque las propiedades de los métodos de datos faltantes dependen en gran medida de la naturaleza de las dependencias en estos mecanismos.
Para seleccionar un enfoque válido para el problema de datos faltantes, es necesario averiguar por qué faltan valores. Es posible que falten diferentes valores en el conjunto de datos por diferentes razones. La pregunta importante es si faltan las variables que faltan porque están relacionadas con los valores subyacentes de las variables en el conjunto de datos.
Normalmente se consideran tres mecanismos de datos faltantes:
Falta completamente al azar (MCAR): no existe relación entre los valores de las variables (observadas y faltantes) y la probabilidad de que falten. Los elementos faltantes son simplemente una muestra aleatoria de los datos observados
Falta al azar (MAR): la falta depende solo de los datos observados y no de los valores que faltan.
No falta al azar (NMAR) o no discernible (NI): la probabilidad de que falte un elemento depende del valor no observado de los elementos faltantes y de la ley de falta, no se puede simplificar (es decir, depende de cantidades no observadas).
La no ignorabilidad (NMAR) significa que necesitamos modelar el mecanismo de datos faltantes para obtener buenas estimaciones de los parámetros de interés, y esto requiere métodos bastante especializados. Por el contrario, la ignorabilidad básicamente significa que no necesitamos modelar el mecanismo de datos faltantes como parte del proceso de estimación. MCAR es ignorable y MAR puede hacerse ignorable bajo el análisis apropiado. Si incluimos las variables del mecanismo, entonces podemos ignorar los problemas con los datos MAR. Pero ciertamente necesitamos técnicas especiales para utilizar los datos de una manera eficiente.
Desafortunadamente, la falta es una noción más difícil cuando hablamos de modelos de aprendizaje automático.
Con el fin de evaluar la importancia de la .La característica es que queremos poder calcular cuánto aumentaría la salida de la red si aumentamos sucesivamente la "presencia" de la característica. Pero, ¿qué significa esto exactamente? Para aumentar la presencia de una característica, tendríamos que comenzar con la característica "faltante" y tener una forma de interpolar entre esa falta y su valor actual y conocido.
Con suerte, esto suena terriblemente familiar. Los degradados integrados tienen una entrada de línea base x' exactamente por esta razón: modelar una característica ausente. Pero, ¿cómo debes elegir? x' con el fin de representar mejor esto? Parece ser una práctica común elegir una entrada de referencia x' ser el vector de todos los ceros. Pero considere el siguiente escenario: ha aprendido un modelo en un conjunto de datos de atención médica, y una de las características es el nivel de azúcar en la sangre. El modelo ha aprendido correctamente que los niveles excesivamente bajos de azúcar en la sangre, que corresponden a la hipoglucemia, son peligrosos. ¿Un nivel de azúcar en la sangre de 0 ¿Parece una buena opción para representar la falta?
El punto aquí es que los valores de característica fijos pueden tener un significado no deseado. El problema se agrava aún más cuando se considera la diferencia con respecto al término de referencia . Por el bien de un experimento mental, supongamos que un paciente tiene un nivel de azúcar en la sangre de 0. Para comprender por qué nuestro modelo de aprendizaje automático cree que este paciente está en alto riesgo, ejecute gradientes integrados en este punto de datos con una línea de base del vector de todos los ceros. El nivel de azúcar en la sangre del paciente tendría 0 importancia de la característica, porque . Esto es a pesar del hecho de que un nivel de azúcar en la sangre de 0 sería fatal!
Encontramos problemas similares cuando nos movemos al dominio de la imagen. Si utiliza una imagen negra constante como línea de base, los degradados integrados no resaltarán los píxeles negros como importantes, incluso si los píxeles negros constituyen el objeto de interés. En términos más generales, el método es ciego al color que utiliza como línea de base, que ilustramos con la figura a continuación. Tenga en cuenta que esto fue reconocido por los autores originales, y de hecho es fundamental para la definición de una línea de base: ¡no querríamos que los gradientes integrados resaltaran las características faltantes como importantes! Pero entonces, ¿cómo evitamos dar cero importancia al color de referencia?
Aprendizaje automatico con valores de shapley
Machine learning con Teoria de juegos

Opciones alternativas de la línea de base.

Está claro que cualquier línea de base (baseline) de color constante tendrá este problema donde nos lleva a la cuestión de saber si existen alternativas para esto. Por lo tanto, en esta sección comparamos cuatro opciones alternativas para una línea de base en el dominio de la imagen. Antes de continuar, es importante señalar que este artículo no es el primero que señala la dificultad de elegir una línea de base. Varios artículos, incluido el original, discuten y comparan varias nociones de "missingness", tanto en el contexto de los gradientes integrados como en general. No obstante, la elección de la línea de base adecuada sigue siendo un reto. Tomando esto en cuenta, se presentan a continuación algunas opciones de líneas de base y su representación.

La línea de base de máxima distancia

Si nos preocupa que las líneas de base constantes sean ciegas al color de la línea de base, esto nos lleva a el planteamiento de construir una línea de base que no sufra este tipo de problema. Para ello, una forma de construir este tipo de línea de base es tomar la imagen mas lejana en la distancia “L1” de la imagen actual de tal forma que la línea de base siga estando en el rango de pixeles valido. Esta línea de base, a la que nos referimos como línea de base de máxima distancia (denotada como max.dist. en la figura siguiente), evita directamente el problema de la diferencia con respecto a la línea de base.

baseline_choice_1.png

La línea de base borrosa.

El problema con la línea de base de la distancia máxima es que no representa realmente la falta de información (missingness). En realidad, contiene mucha información sobre la imagen original, lo que significa que ya no estamos explicando nuestra predicción en relación con la falta de información. Para preservar mejor la noción de falta de información, tomamos inspiración de [1]. En el artículo, Fong y Vedaldi utilizan una versión borrosa de la imagen como forma especifica de representar la falta de información. Esta línea de base es muy atractiva ya que captura la noción de falta de información en las imágenes de una manera muy intuitiva para el ser humano. En la figura siguiente, esta línea de base se denota como desenfoque (blur). La figura permite jugar con la constante de suavizado utilizada para definir la línea de base.
baseline_choice_2.png
Al aumentar cada vez mas esta constante de suavizamiento nuestra imagen se hará cada vez mas borrosa (esto crea una representacion de mayor perdida de informacion), esto se puede ver representado en la siguiente imagen.
baseline_choice_3.png

La línea de base uniforme

Un posible inconveniente de la línea de base borrosa es que está sesgada para resaltar la información de alta frecuencia. Los píxeles que son muy similares a sus vecinos pueden tener menos importancia que los píxeles que son muy diferentes a sus vecinos, porque la línea de base se define como una media ponderada de un píxel y sus vecinos. Para superar esto, podemos volver a inspirarnos en ambos [1] y en el documento original de los gradientes integrados. De esta manera, otra forma de definir la ausencia de datos es simplemente muestrear una imagen uniforme al azar en el rango de píxeles válido y llamarla línea de base. En la figura siguiente nos referimos a esta línea de base como “uniform”.
baseline_choice_4.png

La línea de base gaussiana.

Por supuesto, la distribución uniforme no es la única distribución de la que podemos obtener ruido aleatorio. En el artículo sobre el SmoothGrad, Smilkov et al. [2] crean frecuencia usando una distribución gaussiana centrada en la imagen actual con varianza σ. De esta manera, podemos utilizar la misma distribución como línea de base para los gradientes integrados. En la figura siguiente, esta línea de base es llamada “gaussian” donde se puede variar la desviación estándar de la distribución σ.
baseline_choice_5.png
Una cosa para tener en cuenta aquí es que truncamos la línea de base gaussiana en el rango de píxeles válidos, lo que significa que a medida que σ se acerca a , la línea de base gaussiana se acerca a la línea de base uniforme.
baseline_choice_6.png

Promedio de varias líneas de base.

Es posible que se tenga dudas sobre estas dos últimas líneas de base (uniforme y gaussiana), y está bien en tenerlas. Una línea de base generada aleatoriamente puede sufrir el mismo problema de ceguera que una imagen constante. Si dibujamos una imagen aleatoria uniforme como línea de base, hay una pequeña posibilidad de que un píxel de la línea de base esté muy cerca de su correspondiente píxel de entrada en valor. Por lo tanto, esos píxeles no se destacarán como importantes. Dando como resultado que el mapa de prominencia resultante pueda tener defectos debido a la línea de base dibujada al azar. Por lo tanto, esto nos plantea, ¿Hay alguna forma de solucionar este problema?
Tal vez la forma más natural de hacerlo es promediar sobre múltiples líneas de base diferentes, como se discute en [3,4,5]. Aunque hacer esto puede no ser particularmente natural para las imágenes de color constante (¿Qué colores se eligen para promediar y por qué?), es una noción muy natural para las líneas de base obtenidas de las distribuciones. Basta con extraer más muestras de la misma distribución y promediar las puntuaciones de importancia de cada muestra.

Asumiendo una distribución.

En este punto, es conveniente relacionar la idea de promediar sobre múltiples líneas de base con la definición original de gradientes integrados. Cuando promediamos sobre múltiples líneas de base de la misma distribución D, estamos intentando utilizar la propia distribución como nuestra línea de base. Utilizamos la distribución para definir la noción de ausencia: si no conocemos el valor de un píxel, no suponemos que su valor sea 0, sino que suponemos que tiene alguna distribución subyacente D. Formalmente, dad una distribución de línea de base D, integramos sobre todas las líneas de base posibles ponderada por la función de densidad :
Average_baseline_2.png
En cuanto a la ausencia de datos, suponer una distribución puede parecer intuitivamente una suposición más razonable que suponer un valor constante. Pero esto no resuelve del todo el problema: en lugar de tener que elegir una línea de base , ahora tenemos que elgir una distribución de líneas de base D. ¿Se ha pospuesto simplemente el problema? En la próxima sección se discutirá una forma teóricamente motivada de elegir D, pero antes se hará un breve inciso para hablar de cómo calculamos la fórmula anterior en la práctica, y de una conexión con un método existente que surge como resultado.

Expectativas y conexiones con SmoothGrad.

Ahora que hemos introducido una segunda integral en nuestra fórmula, necesitamos hacer una segunda suma discreta para aproximarla, lo que requiere un hiperparámetro adicional: el número de líneas de base a muestrear.
En [4], Erion et al. hacen la observación de que ambas integrales pueden pensarse como expectativas: la primera integral como una expectativa sobre D, y la segunda integral como una expectativa sobre el camino entre y x. Esta formulación, denominada “gradientes esperados”, esta definida formalmente como:
Average_baseline_3.png
Los gradientes esperados y los gradientes integrados pertenecen a una familia de métodos conocidos como "métodos de atribución de trayectorias" porque integran gradientes sobre una o más trayectorias entre dos entradas válidas. Tanto los gradientes esperados como los gradientes integrados utilizan trayectorias rectilíneas, pero también se pueden integrar sobre trayectorias que no son rectas. Para calcular los gradientes esperados en la práctica, utilizamos la siguiente fórmula:
Average_baseline_4.png
Donde es la j-enesima muestra de D y es la j-enesima muestra de la distribución uniforme entre 0 y 1. Supongamos ahora que utilizamos la línea de base gaussiana con varianza . Entonces podemos reescribir la fórmula de los gradientes esperados de la siguiente manera:
Average_baseline_5.png
Donde . Esto se parece mucho a un método existente llamado SmoothGrad. Si utilizamos la variante (gradientes ×\times× imagen de entrada) de SmoothGrad, entonces tenemos la siguiente fórmula:
Average_baseline_6.png
Podemos ver que SmoothGrad y los gradientes esperados con una línea de base gaussiana son bastante similares, con dos diferencias clave: SmoothGrad multiplica el gradiente por mientras que los gradientes esperados se multiplican sólo por , y mientras que los gradientes esperados muestrean uniformemente a lo largo de la trayectoria, SmoothGrad siempre muestrea el punto final .
Cuando asumimos la distribución gaussiana anterior como nuestra línea de base, estamos asumiendo que cada uno de nuestros valores de píxeles se extrae de una gaussiana independientemente de los demás valores de píxeles. Pero sabemos que esto está lejos de ser verdad: en las imágenes, existe una rica estructura de correlación entre los píxeles cercanos. Una vez que la red conoce el valor de un píxel, no necesita realmente utilizar sus vecinos inmediatos porque es probable que esos vecinos inmediatos tengan intensidades muy similares.
Suponer que cada píxel se obtiene de una gaussiana independiente rompe esta estructura de correlación. Significa que los gradientes esperados tabulan la importancia de cada píxel independientemente de los valores de los demás píxeles. Los mapas de prominencia generados tendrán menos ruido y resaltarán mejor el objeto de interés porque ya no estamos permitiendo que la red se base en un solo píxel de un grupo de píxeles correlacionados. Esta puede ser la razón por la que SmoothGrad es suave: porque está asumiendo implícitamente la independencia entre los píxeles. En la figura siguiente, se muestra la comparación de los gradientes integrados con una única línea de base dibujada al azar con los gradientes esperados muestreados sobre una distribución. Para la línea de base gaussiana, también se puede alternar la opción SmoothGrad para utilizar la fórmula SmoothGrad anterior. Para todas las figuras, .
Tomando en cuenta a "uniform baseline" tenemos:
Average_baseline_7.png
Mientras que al usar "gaussian baseline" tenemos:
Average_baseline_8.png
Al usar la propiedad de Multi-reference hace que en vez de tomar una sola linea de base, toma varias de la misma distribución.
Tomando en cuenta a "uniform baseline" tenemos:
Average_baseline_9.png
Mientras que al usar "gaussian baseline" tenemos:
Average_baseline_10.png

Utilización de la distribución de entrenamiento.

¿Es realmente razonable asumir la independencia entre los píxeles al generar mapas de prominencia? En el aprendizaje supervisado, suponemos que los datos proceden de una distribución . Esta suposición de que los datos de entrenamiento y de prueba comparten una distribución subyacente común es lo que nos permite realizar un aprendizaje supervisado y hacer afirmaciones sobre la generalizabilidad. Dada esta suposición, no necesitamos modelar la ausencia de datos utilizando una distribución gaussiana o uniforme: podemos utilizar para modelar la ausencia de datos directamente.
El único problema es que no tenemos acceso a la distribución subyacente. Pero como se trata de una tarea de aprendizaje supervisado, tenemos acceso a muchas extracciones independientes de la distribución subyacente: ¡los datos de entrenamiento! Podemos simplemente utilizar muestras de los datos de entrenamiento como extracciones aleatorias de . Esto nos lleva a la variante de los gradientes esperados utilizados en [4], que de nuevo visualizamos en tres partes:
Average_baseline_11.png
Average_baseline_12.png
Una representación visual de los gradientes esperados. En lugar de tomar las contribuciones de un solo camino, los gradientes esperados promedian las contribuciones de todos los caminos definidos por la distribución de datos subyacente. Donde al aumentar las muestras obtenemos:
Para las primeras 100 muestras.
Average_baseline_13.png
Para las 400 muestras.
Average_baseline_14.png
En (4) volvemos a representar la suma de las puntuaciones de importancia sobre los píxeles. Como se menciona en el artículo original sobre los gradientes integrados, todos los métodos de trayectoria, incluidos los gradientes esperados, satisfacen el axioma de integridad. Definitivamente, podemos ver que la completitud es más difícil de satisfacer cuando integramos tanto una ruta como una distribución: es decir, con el mismo número de muestras, los gradientes esperados no convergen tan rápidamente como los gradientes integrados. Si esto es o no un precio aceptable para evitar el daltonismo en las atribuciones parece subjetivo.

Comparación de métodos de prominencia

Así que ahora tenemos muchas opciones diferentes para una línea de base. ¿Cómo elegimos cuál debemos usar? Las diferentes opciones de distribuciones y líneas de base constantes tienen diferentes motivaciones teóricas y preocupaciones prácticas. ¿Tenemos alguna forma de comparar las diferentes líneas de base? En esta sección, abordaremos varias ideas diferentes sobre cómo comparar los métodos de interpretabilidad. Esta sección no pretende ser una descripción general completa de todas las métricas de evaluación existentes, sino que pretende enfatizar que evaluar los métodos de interpretabilidad sigue siendo un problema difícil.
Los peligros de la evaluación cualitativa
Una forma ingenua de evaluar nuestras líneas base es mirar los mapas de prominencia que producen y ver cuáles resaltan mejor el objeto en la imagen. De nuestras figuras anteriores, parece como usar Datos �produce resultados razonables, al igual que el uso de una línea de base gaussiana o la línea de base borrosa. Pero, ¿la inspección visual es realmente una buena manera de juzgar nuestras líneas de base? Por un lado, solo hemos presentado cuatro imágenes del conjunto de prueba aquí. Tendríamos que realizar estudios de usuarios a una escala mucho mayor con más imágenes del conjunto de prueba para tener confianza en nuestros resultados. Pero incluso con estudios de usuarios a gran escala, la evaluación cualitativa de los mapas de prominencia tiene otros inconvenientes.
Cuando confiamos en la evaluación cualitativa, asumimos que los humanos saben qué es un mapa de prominencia "preciso". Cuando observamos los mapas de prominencia en datos como ImageNet, a menudo verificamos si el mapa de prominencia resalta o no el objeto que vemos que representa la verdadera clase en la imagen. Hacemos una suposición entre los datos y la etiqueta, y luego asumimos que un buen mapa de prominencia debería reflejar esa suposición. Pero hacerlo no tiene una justificación real. Considere la siguiente figura, que compara dos métodos de prominencia en una red que obtiene una precisión superior al 99 % en (una versión alterada de) MNIST. El primer método de prominencia es solo un detector de bordes más suavizado gaussiano, mientras que el segundo método de prominencia es gradientes esperados utilizando los datos de entrenamiento como una distribución. La detección de bordes refleja mejor lo que los humanos pensamos que es la relación entre la imagen y la etiqueta.
2.png
La evaluación cualitativa puede ser peligrosa porque confiamos en nuestro conocimiento humano de la relación entre los datos y las etiquetas, y luego asumimos que un modelo preciso ha aprendido esa misma relación.
Desafortunadamente, el método de detección de bordes aquí no destaca lo que la red ha aprendido. Este conjunto de datos es una variante del señuelo MNIST, en el que la esquina superior izquierda de la imagen se modificó para codificar directamente la clase de la imagen.
. Es decir, la intensidad de la esquina superior izquierda de cada imagen se ha modificado para que sea 255 x y/9 dónde y es la clase a la que pertenece la imagen. Al eliminar este parche en el conjunto de prueba, podemos verificar que la red depende en gran medida de él para hacer predicciones, que es lo que muestran los mapas de prominencia de gradientes esperados.
Este es obviamente un ejemplo artificial. No obstante, el hecho de que la evaluación visual no sea necesariamente una forma útil de evaluar los mapas de prominencia y los métodos de atribución ha sido ampliamente discutido en la literatura reciente, con muchas pruebas cualitativas propuestas como reemplazo.
El meollo del problema es que no tenemos explicaciones de la verdad básica: estamos tratando de evaluar qué métodos explican mejor nuestra red sin saber realmente qué están haciendo nuestras redes.
Principales pruebas de ablación K
Una forma sencilla de evaluar las puntuaciones de importancia que producen los gradientes esperados/integrados es ver si la ablación de las k características principales clasificadas por su importancia disminuye el logit de salida pronosticado. En la figura a continuación, realizamos la ablación por medio de la imputación o reemplazando cada píxel por su contraparte desenfocada por Gauss ( Mean Top K y Blur Top K en la gráfica). Generamos la importancia de los píxeles para 1000 imágenes diferentes de conjuntos de pruebas correctamente clasificadas utilizando cada una de las líneas base propuestas anteriormente. 8 . Como control, también incluimos características de clasificación al azar ( ruido aleatorio en la trama).
Trazamos, como una fracción del logit original, el logit de salida de la red en la clase verdadera. Es decir, suponga que la imagen original es un jilguero y la red predice correctamente la clase de jilguero con un 95 % de confianza. Si la confianza de la clase jilguero cae al 60 % después de eliminar el 10 % de los píxeles superiores clasificados por importancia de la característica, trazamos una curva que pasa por los puntos(0,0, 0,95)( 0 . 0 ,0 _ 9 5 )y(0,1, 0,6)( 0 . 1 ,0 _ 6 ). La opción de línea de base que mejor resalta qué píxeles la red debe exhibir la caída más rápida en la magnitud logit, porque resalta los píxeles que más aumentan la confianza de la red. Es decir, cuanto más baja es la curva, mejor es la línea de base.
Pruebas de ablación del centro de masa
Un problema con la ablación de las k características principales en una imagen está relacionado con un problema que ya mencionamos: la correlación de características. No importa cómo eliminemos un píxel, los vecinos de ese píxel brindan mucha información sobre el valor original del píxel. Con esto en mente, se podría argumentar que la ablación progresiva de píxeles uno por uno es algo bastante insignificante. ¿Podemos, en cambio, realizar ablaciones teniendo en cuenta la correlación de características?
Una forma sencilla de hacer esto es simplemente calcular el centro de masa del mapa de prominencia y extirpar una región encuadrada centrada en el centro de masa. Esto prueba si el mapa de prominencia generalmente resalta o no una región importante en la imagen. Trazamos el reemplazo de la región encuadrada alrededor del mapa de prominencia utilizando la imputación media y el desenfoque a continuación también ( Mean Center y Blur Center , respectivamente). Como control, comparamos con un mapa de prominencia generado a partir de ruido gaussiano aleatorio (ruido aleatorio en la trama).
3.png
4.png
5.png
6.png
Una variedad de pruebas de ablación en una variedad de líneas de base. El uso de la distribución de entrenamiento y el uso de la distribución uniforme superan a la mayoría de los otros métodos en las principales pruebas de ablación k. La línea base de desenfoque inspirada en lo hace igualmente bien en la prueba de desenfoque top-k. Todos los métodos funcionan de manera similar en las pruebas de ablación del centro de masa. Pase el mouse sobre la leyenda para resaltar una sola curva.
Las pruebas de ablación parecen indicar algunas tendencias interesantes. Todos los métodos funcionan de manera similar en las pruebas de ablación del centro de masa, y solo un poco mejor que el ruido aleatorio. Esto puede deberse a que el objeto de interés generalmente se encuentra en el centro de la imagen; no es difícil que el ruido aleatorio esté centrado en la imagen. Por el contrario, el uso de datos de entrenamiento o una distribución uniforme parece funcionar bastante bien en las pruebas de ablación top-k. Curiosamente, la línea base de desenfoque inspirada en también lo hace bastante bien en las pruebas de línea de base k superiores, ¡especialmente cuando eliminamos píxeles al difuminarlos! ¿La línea de base uniforme funcionaría mejor si realiza una ablación de la imagen con un ruido aleatorio uniforme? Quizás la línea de base de distribución de entrenamiento funcionaría aún mejor si elimina una imagen reemplazándola progresivamente con una imagen diferente. Dejamos estos experimentos como trabajo futuro, ya que hay una pregunta más apremiante que debemos discutir.
Las trampas de las pruebas de ablación
¿Podemos realmente confiar en las pruebas de ablación presentadas anteriormente? Ejecutamos cada método con 500 muestras. Las líneas base constantes tienden a no necesitar tantas muestras para converger como las líneas base sobre distribuciones. ¿Cómo hacemos una comparación justa entre líneas base que tienen diferentes costos computacionales? Un trabajo futuro valioso pero computacionalmente intensivo sería comparar no solo a través de las líneas base sino también a través del número de muestras extraídas, y para las líneas base borrosas y gaussianas, el parámetro\sigmaσ. Como se mencionó anteriormente, hemos definido muchas nociones de faltantes además de la imputación media o la borrosidad: las comparaciones más extensas también compararían todas nuestras líneas de base en todas las nociones correspondientes de datos faltantes.
Pero incluso con todas estas comparaciones adicionales, ¿las pruebas de ablación realmente brindan una métrica bien fundamentada para juzgar los métodos de atribución? los autores de argumentar en contra de las pruebas de ablación. Señalan que una vez que eliminamos artificialmente los píxeles de una imagen, hemos creado entradas que no provienen de la distribución de datos original. Nuestro modelo entrenado nunca ha visto tales entradas. ¿Por qué deberíamos esperar extraer alguna información razonable al evaluar nuestro modelo sobre ellos?
Por otro lado, los gradientes integrados y los gradientes esperados se basan en la presentación de imágenes interpoladas a su modelo y, a menos que haga alguna suposición extraña de convexidad, esas imágenes interpoladas tampoco pertenecen a la distribución de entrenamiento original. En general, si los usuarios deben o no presentar sus modelos con entradas que no pertenecen a la distribución de capacitación original es un tema de debate continuo. No obstante, el punto planteado en sigue siendo importante: "no está claro si la degradación en el rendimiento del modelo proviene del cambio de distribución o porque las características que se eliminaron son realmente informativas".
Métricas de evaluación alternativas
Entonces, ¿qué pasa con otras métricas de evaluación propuestas en la literatura reciente? En, Hooker et al. Proponga una variante de una prueba de ablación donde primero ablacionamos píxeles en los conjuntos de entrenamiento y prueba. Luego, volvemos a entrenar un modelo en los datos ablacionados y medimos cuánto se degrada el rendimiento del conjunto de prueba. Este enfoque tiene la ventaja de capturar mejor si el método de prominencia resalta o no los píxeles que son más importantes para predecir la clase de salida. Desafortunadamente, tiene el inconveniente de necesitar volver a entrenar el modelo varias veces. Esta métrica también puede confundirse con la correlación de características.
Considere el siguiente escenario: nuestro conjunto de datos tiene dos características que están altamente correlacionadas. Entrenamos un modelo que aprende a usar solo la primera característica e ignora por completo la segunda característica. Un método de atribución de características podría revelar con precisión lo que está haciendo el modelo: solo está usando la primera característica. Podríamos eliminar esa función en el conjunto de datos, volver a entrenar el modelo y obtener un rendimiento similar porque la información similar se almacena en la segunda función. Podríamos concluir que nuestro método de atribución de funciones es pésimo, ¿no es así? Este problema encaja en una discusión más amplia sobre si su método de atribución debe o no ser "fiel al modelo" o "fiel a los datos", que se ha discutido en varios artículos recientes.
En los autores proponen varios controles de cordura que deben pasar los métodos de prominencia. Una es la "Prueba de aleatorización de parámetros del modelo". Esencialmente, establece que un método de atribución de características debe producir diferentes atribuciones cuando se evalúa en un modelo entrenado (supuestamente un modelo entrenado que funciona bien) y un modelo inicializado aleatoriamente. Esta métrica es intuitiva: si un método de atribución de características produce atribuciones similares para modelos aleatorios y entrenados, ¿realmente la atribución de características utiliza información del modelo? Podría depender completamente de la información de la imagen de entrada.
Pero considere la siguiente figura, que es otra versión (modificada) de MNIST. Hemos generado atribuciones de gradientes esperados usando la distribución de entrenamiento como línea de base para dos redes diferentes. Una de las redes es un modelo entrenado que obtiene más del 99 % de precisión en el conjunto de prueba. La otra red es un modelo inicializado al azar que no funciona mejor que adivinar al azar. ¿Deberíamos concluir ahora que los gradientes esperados son un método poco confiable?
1.png
Una comparación de los mapas de prominencia de dos redes usando gradientes esperados. Una red tiene pesos inicializados aleatoriamente, la otra obtiene una precisión >99 % en el conjunto de prueba.
Por supuesto, modificamos MNIST en este ejemplo específicamente para que las atribuciones de gradientes esperadas de un modelo preciso se vean exactamente como las de un modelo inicializado aleatoriamente. La forma en que hicimos esto es similar al conjunto de datos de señuelo MNIST, excepto que en lugar de que la esquina superior izquierda codifique la etiqueta de clase, dispersamos el ruido aleatoriamente a lo largo de cada imagen de entrenamiento y prueba donde la intensidad del ruido codifica la verdadera etiqueta de clase. En general, ejecutaría este tipo de comprobaciones de cordura del método de prominencia en datos no modificados.Pero la verdad es que, incluso para las imágenes naturales, en realidad no sabemos cómo deberían ser los mapas de prominencia de un modelo preciso. Las diferentes arquitecturas entrenadas en ImageNet pueden obtener un buen rendimiento y tener mapas de prominencia muy diferentes. ¿Podemos realmente decir que los modelos entrenados deberían tener mapas de prominencia que no se vean como mapas de prominencia generados en modelos inicializados aleatoriamente? Eso no quiere decir que la prueba de aleatorización del modelo no tenga mérito: revela cosas interesantes sobre lo que están haciendo los métodos de prominencia. Simplemente no cuenta toda la historia.
Como mencionamos anteriormente, hay una variedad de métricas que se han propuesto para evaluar los métodos de interpretabilidad. Hay muchas métricas que no discutimos explícitamente aquí. Cada métrica propuesta viene con sus diversos pros y contras. En general, la evaluación de modelos supervisados es bastante sencilla: reservamos un conjunto de prueba y lo usamos para evaluar qué tan bien se desempeña nuestro modelo en datos no vistos. Evaluar las explicaciones es difícil: no sabemos lo que está haciendo nuestro modelo y no tenemos ninguna verdad fundamental con la que comparar.
Mapas de prominencia
Prominencia visual: desde un enfoque simple basado en gradientes hasta GradCAM

Conclusión

¿Entonces qué debería ser hecho? Tenemos muchas líneas de base y ninguna conclusión sobre cuál es la "mejor". Aunque no proporcionamos resultados cuantitativos extensos que comparen cada línea de base, proporcionamos una base para comprenderlos más a fondo. En el corazón de cada línea de base hay una suposición sobre la ausencia en nuestro modelo y la distribución de nuestros datos. En este artículo, arrojamos luz sobre algunas de esas suposiciones y su impacto en la atribución de ruta correspondiente. Sentamos las bases para futuras discusiones sobre las líneas de base en el contexto de las atribuciones de ruta y, de manera más general, sobre la relación entre las representaciones de ausencia y cómo explicamos los modelos de aprendizaje automático.
7.png
8.png9.png
10.png
Una comparación lado a lado de gradientes integrados usando una línea base negra y gradientes esperados usando los datos de entrenamiento como línea base.

Referencias:

1. Interpretable explanations of black boxes by meaningful perturbation Fong, R.C. and Vedaldi, A., 2017. Proceedings of the IEEE International Conference on Computer Vision, pp. 3429--3437.
2. Smoothgrad: removing noise by adding noise  [PDF] Smilkov, D., Thorat, N., Kim, B., Viegas, F. and Wattenberg, M., 2017. arXiv preprint arXiv:1706.03825.
3. A unified approach to interpreting model predictions[PDF] Lundberg, S.M. and Lee, S., 2017. Advances in Neural Information Processing Systems, pp. 4765--4774.
4. Learning Explainable Models Using Attribution Priors[PDF] Erion, G., Janizek, J.D., Sturmfels, P., Lundberg, S. and Lee, S., 2019.
5. XRAI: Better Attributions Through Regions , Kapishnikov, A., Bolukbasi, T., Viégas, F. and Terry, M., 2019.
Sturmfels P. (2010), Lundberg S. & Lee S. (2020). Visualizing the Impact of Feature Attribution Baselines. Doi: 10.23915/distill.00022
Vertex AI. (s.f). Introducción a Explicaciones de IA para AI Platform. Recuperado de: https://cloud.google.com/ai-platform/prediction/docs/ai-explanations/overview#:~:text=Feature%20attributions%20indicate%20how%20much,along%20with%20feature%20attribution%20information.
Gershgorn D. (2017). The data that transformed AI research—and possibly the world. Quartz. Recuperado de: https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/
F. Arteaga, A. Folch-Fortuny, A. Ferrer, Comprehensive Chemometrics, 2020, Pages 615-639
Molnar, C. (2021). Aprendizaje automático interpretable (2.a ed.). lulu.
Goel, N. (s. f.). The Importance of Modeling Data Missingness in Algorithmic Fairness: A Causal Perspective | Proceedings of the AAAI Conference on Artificial Intelligence. Proceedings of the AAAI Conference on Artificial Intelligence. Recuperado 10 de junio de 2022, de https://ojs.aaai.org/index.php/AAAI/article/view/16926